from pyspark import SparkConf, SparkContext
import os
os.environ['PYSPARK_PYTHON'] = r"C:\Users\admin\AppData\Local\Programs\Python\Python38\python.exe"
conf = SparkConf().setMaster("local[*]").setAppName("test_spark")
sc = SparkContext(conf=conf)
# 准备一个RDD
rdd = sc.parallelize([1, 2, 3, 4, 5])
# 对RDD的数据进行过滤
# filter方法用于筛选RDD中的元素。它接受一个函数作为参数，该函数返回布尔值，决定元素是否被保留。filter方法不修改原始数据，而是生成一个新的RDD。
rdd2 = rdd.filter(lambda num: num % 2 == 0)
print(rdd2.collect())
